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摘要 : 作为 预测 太阳 活动 的 重要 依据 ， 太 阳 黑 子 的 麦 金 托 什 ( MclIntosh) 分 类 由 于 其 中 某 
些 类 别 与 沅 斑 爆 发 有 着 紧密 联系 而 应 用 广泛 。 随 着 数据 量 的 快速 增加 ， 自 动 化 进行 太阳 黑子 
的 麦 金 托 什 分 类 已 成 为 迫切 需求 。 使 用 太阳 动力 学 观测 站 (Solar Dynamics Observatory, SDO) 上 
的 日 震 与 磁场 成 像 仪 (Helioseismic and Magnetic Imager, HMI) 提 供 的 720s-SHARP ( Spaceweather 
HMI Active Region Patch, SHARP) 系列 数据 产品 和 美 家 海洋 和 大 气管 理 局 (National 
Oceanic and Atmospheric Administration，NOAA) 提 供 的 大 阳 区 域 摘要 (The Solar Region 
Summary, SRS) 信息 作 为 用 于 麦 金 托 什 分 类 的 图 像 数 据 来 源 和 标签 数据 来 源 ， 首 先 在 仅 有 7 
年 数据 Sharp 数据 库 基础 上 进行 扩充 ,建立 一 个 完整 太阳 周期 (时 间 跨 度 为 12 年 ) 且 经 过 数 
据 清 洗 的 有 效 太 阳 黑 子 newSharp 数据 库 ; 其 次 根据 太阳 黑子 图 像 的 特征 ， 采 取 一 系列 如 按 活 
动 区 分 配 数据 等 预 处 理 操作 ， 并 证 明 其 科学 性 和 必要 性 ; 最 终 使 用 卷 积 神经 网 络 ( Convolutional 
Neural Network, CNN) 中 4 种 经 典 的 分 类 神经 网 络 模型 将 Sharp 和 newSharp 进行 麦 金 托 什 
(McIntosh) 分 类 对 比 实验 。 实 验 结果 表明 newSharp 相 比 于 Sharp， 除 了 数据 量 有 显著 提高 ， 
同时 有 效 样 本 的 加 入 和 无 效 样本 的 清洗 使 得 大 部 分 类 别 的 加 权 F 分 数 有 所 提升 ， 少 类 的 加 
ALF, 分 数 实现 0 的 突破 ; 其 中 MecIntosh-p 的 加 权 F, 分 数 整体 提升 最 大 ， 验 证 了 建立 完整 可 
靠 的 数据 库 和 使 用 科学 合理 的 实验 方法 的 有 效 性 ， 能 较 好 实现 自动 化 且 端 到 端 地 处 理 实际 观 


测 到 太阳 黑子 图 像 的 麦 金 托 什 分 类 任务 。 
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太阳 活动 中 光斑 爆发 可 以 引起 空间 环境 变化 ， 对 人 类 活动 产生 巨大 的 影响 ""”， 而 国际 上 公认 且 
应 用 广泛 的 麦 金 托 什 分 类 中 较为 复杂 的 太阳 黑子 类 别 D, E, F 与 光斑 爆发 有 着 紧密 联系 '""。 因 此 ， 太 
阳 黑 子 的 麦 金 托 什 分 类 可 以 作为 预测 太阳 光斑 的 重要 依据 ; 同时 由 于 快速 增长 的 数据 量 *” ， 如 何 高 
效 对 太阳 黑子 自动 进行 麦 金 托 什 分 类 已 成 为 太阳 物理 领域 的 迫切 需求 。 

太阳 黑子 麦 金 托 什 分 类 主要 经 历 了 从 专家 手动 、 图 像 处 理 到 深度 学 习 方 法 。 以 往 麦 金 托 什 自动 分 
类 方法 "由 于 主要 使 用 全 日 面 图 像 将 分 类 任务 分 成 太阳 黑子 识别 、 聚 类 /分 组 、 分 类 等 任务 分 步 进 
行 ， 其 中 分 类 任务 主要 根据 MclIntosh-Zpc 分 类 规则 作为 决策 树 的 决策 标准 完成 ， 但 前 期 需要 大 量 专家 
提取 数据 特征 ， 实 际 操作 复杂 且 精 度 较 低 。2008 年 ， 文 [13] 建 立 决策 树 进行 MeIntosh-Zve 分 类 ， 用 


简单 的 全 连接 神经 网 络 模型 完成 MeIntosh-p 分 类 ， 前 期 同样 需要 大 量 专家 手动 依次 提取 图 像 中 黑子 群 


的 特征 并 以 此 作为 决策 树 或 神经 网 络 的 输入 ， 最 终结 果 往 往 受 聚 类 算法 和 类 别 不 均衡 影响 ， 导 致 部 分 
类 别 精度 几乎 为 0;， 此 外 ， 由 于 使 用 数据 的 时 间 跨 度 远 远 短 于 11 年 太阳 黑子 周期 (太阳 黑子 的 活动 变 
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化 规律 具有 11 年 的 周期 性 ， 本 文 将 其 作为 可 以 包含 一 个 周期 内 太阳 黑子 特征 的 时 间 跨 度 参 考 值 ) , 
包含 的 黑子 种 类 和 数据 较 少 ， 无 法 涵盖 足够 的 黑子 特征 ， 模 型 可 以 利用 的 样本 较 少 ， 最 终 分 类 结果 缺 
乏 可 信 度 。2000 年 以 来 ， 深 度 学 习 典 型 算法 中 的 卷 积 神经 网 络 可 以 从 经 过 简单 预 处 理 的 数据 其 至 是 
原始 数据 中 ， 学 习 到 本 质 的 、 抽 象 的 和 高 阶 的 特征 ， 并 成 功 应 用 于 图 像 中 目标 和 区 域 的 检测 、 分 割 和 
识别 任务 “” ， 因 此 一 直 受 到 广泛 关注 。2019 年 ， 文 [11 基 于 SDO/HMI 的 连续 光谱 全 日 面 图 ， 用 目 
标 检 测 的 方法 进行 麦 金 托 什 分 类 ， 通 过 大 量 人 工 手 动 标注 2013 ~2016 年 的 太阳 黑子 图 像 ， 获 得 8 800 
个 标签 数据 ， 最 终 仅 通 过 2017 FH 431 个 黑子 进行 测试 ， 部 分 类 别 数量 甚至 为 0， 同 时 由 于 太阳 黑 
子 图 像 的 连续 性 ， 随 机 分 配 数据 集 往往 造成 分 类 精度 虚 高 。2020 年 , 文 [6] 基 于 大 气 成 像 组 件 
( Atmospheric Imaging Assembly, AIA ) 全 日 面 裁剪 图 像 使 用 ResNet-50 对 获得 的 550 张 样本 进行 磁 分 
类 ， 结 果 表 明 ， 尽 管 训练 精度 可 达 97% ， 测 试 精度 仪 有 30% ， 随 机 对 26 个 黑子 进行 测试 ， 由 于 类 别 
数量 之 间 最 大 相差 超过 2 倍 的 类 别 不 均衡 现象 ， 分 类 结果 两 极 分 化 严重 。 可 以 看 出 ， 深 度 学 习 算法 具 
有 和 较 强 的 数据 依赖 性 ， 对 于 太阳 黑子 麦 金 托 什 分 类 任务 而 言 ， 以 往 工作 中 出 现 的 问题 主要 来 源 于 数据 
量 少 、 数 据 集 划分 方式 不 合理 和 等。 总而言之， 目前 的 分 类 算法 采用 的 数据 来 源 众多 、 缺 少 统一 标准 、 
类 别 数 多 (60 类 ) 而 数据 量 少 、 类 别 不 均衡 等 主要 因素 导致 解决 方案 复杂 和 模型 过 拟 合 严 重 ; 男 一 方 
面 ， 对 于 太阳 黑子 数据 的 分 配方 式 、 评 价 标准 、 数 据 预 处 理 等 方法 合理 性 的 问题 也 层出不穷 ， 在 两 者 
共同 作用 下 ， 分 类 结果 不 理想 ， 因 此 往往 难以 通过 深度 学 习 实 现 精确 且 自 动 化 的 麦 金 托 什 分 类 。 

综 上 所 述 ， 来 自 数 据 和 方法 方面 的 问题 是 目前 实现 自动 分 类 目标 的 首要 挑战 。 本 文 根 据 以 往 工作 
的 问题 和 难点 ， 以 及 实验 流程 中 的 科学 性 操作 ， 分 别 从 数据 和 方法 方面 解决 问题 : 首先 重点 解决 标准 
数据 库 的 问题 ,使 用 局 部 日 面 图 像 建立 完整 太阳 周期 (时 间 跨 度 12 年 数据 集 ) ， 且 经 过 数据 清洗 ， 同 
时 保留 一 定 现实 数据 特征 的 太阳 黑子 newSharp 数据 库 ; 另 一 方面 ， 结 合 太阳 黑子 数据 特点 ， 对 样本 
进行 0-padding 和 视 场 统一 化 等 预 处 理 ， 再 使 用 活动 区 ( Active Region, AR) 编号 进行 科学 合理 分 配 数 
据 ， 避 免 以 往 工作 中 因 随 机 分 配方 式 出 现 的 数据 集 交 又 污 染 情 况 ， 并 采用 基于 类 别 数量 的 加 权 FLA 
数 作 为 评价 指标 ， 既 避免 以 往 仅 使 用 分 类 准确 率 ( Accuracy ) 而 未 同时 关注 查 准 率 (Precision ) 与 查 全 率 
(Recall) ， 也 避免 了 以 往 使 用 平均 准确 率 使 得 数量 极 少 类 别 贡 献 不 合理 、 不 具备 普遍 性 与 说 服 力 的 表 
现 影响 分 类 结果 。 最 终 本 文选 取 并 使 用 卷 积 神经 网 络 中 一 系列 经 典 的 分 类 神经 网 络 模型 进行 太阳 黑子 
麦 金 托 什 自动 化 分 类 实验 ， 以 充分 验证 newSharp 数据 库 和 实验 操作 的 有 效 性 和 必要 性 ， 为 未 来 实现 
基于 实际 复杂 数据 集 且 端 到 端的 太阳 黑子 麦 金 托 什 分 类 任务 打下 基础 。 


| 麦 金 托 什 分 类 标准 


目前 ， 国 际 上 公认 的 太阳 黑子 群 分 类 有 三 大 标准 ， 分 别 是 威尔逊 ( Wilson) LU READE"! 、 苏 黎 世 
(Zurich) 分 类 5 2 AFLP AP 。 

具体 而 言 ， 威 尔 逊 山 磁 分 类 主要 基于 磁场 极 性 将 太阳 黑子 分 为 w，B，y，B-yY，5，B-53，PB-y-5 
和 y-5 等 8 类 。 相 较 之 下 ， 苏 黎 世 分 类 更 关注 太阳 黑子 的 演化 顺序 与 形态 特征 并 将 其 细 分 为 A，B， 
C, D, E, F，G，,，H 和 J 等 9 类。 观察 发 现 ， 即 使 是 最 活跃 的 类， 爆发 大 兆 斑 的 概率 依然 很 低 '* 。 
麦 金 托 什 分 类 在 修正 的 苏黎世 分 类 ( 即 A, B, C, D, E, FAH, 共 7 类) 基础 上 ， 额 外 引入 更 能 细 
分 太阳 黑子 有 旦 关联 光斑 爆发 的 参数 . 描述 太阳 黑子 组 内 最 大 黑子 形态 的 p Bit (A x, r, s, a, h 和 
k， 共 6 类 ) 和 描述 太阳 黑子 组 内 部 紧密 程度 的 c 参量 (有 x, o, i 和 c, 共 4 类 )， 如 图 1， 三 者 共同 
组 成 麦 金 托 什 的 Zpe 分 类 规则 。 研 究 表明 ， 麦 金 托 什 分 类 中 的 Dke, Eki, Eke, Fki 和 Fke 类 别 与 m.x 
级 X 射线 事件 的 爆发 率 联系 极 高 "2 ， 所 以 可 以 通过 太阳 黑子 分 类 预测 耀 斑 爆发 等 剧烈 太阳 活动 ， 且 
这 种 方法 对 黑子 群 的 形态 特征 描述 最 为 全 面 ， 对 人 类 观测 理解 太阳 活动 与 极端 空间 天 气 的 预警 有 重要 
作用 。 因 此 ， 麦 金 托 什 分 类 是 目前 在 天 文学 中 应 用 最 多 ， 也 是 太阳 物理 学 家 在 黑子 群 分 类 中 使 用 最 广 
的 方法 1 。 
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基于 深度 学 习 方 法 进行 太阳 黑子 麦 金 托 什 分 
类 的 整体 流程 是 首先 建立 足够 多 数量 和 类 别 的 有 
效 数据 库 ， 至 少 包含 一 个 太阳 周期 的 黑子 特征 ， 
每 一 个 数据 样本 由 包含 活动 区 的 局 部 光 球 层 图 像 
及 对 应 的 麦 金 托 什 分 类 标签 组 成 ; 将 准备 好 的 数 
据 库 样本 进行 科学 合理 的 训练 集 - 验 证 集 - 测 试 
集 划 分 以 及 预 处 理 ; 然后 输入 神经 网 络 模型 并 获 
得 训练 结果 ， 由 完整 可 靠 的 数据 库 训 练 充分 的 网 
络 模 型 可 以 实现 自动 化 太阳 黑子 麦 金 托 什 分 类 任 
务 。 可 以 看 出 ， 该 过 程 的 首要 任务 在 于 获得 完整 
有 效 的 太阳 黑子 数据 库 。 鉴 于 以 往 工作 中 出 现 的 
数据 量 少 、 数 据 集 划分 方式 不 合理 的 问题 ， 本 文 
通过 数据 扩充 、 数 据 预 处 理 、 数 据 合理 划分 等 步 
又 致力 于 构建 更 完善 可 靠 的 数据 库 ， 为 后 续 太 阳 
黑子 麦 金 托 什 分 类 任务 的 实现 葛 定 基础 。 


2 数据 准备 与 预 处 理 


太阳 黑子 数据 库 Sharp 

与 以 往 工作 中 使 用 全 日 面 图 像 不 同 ， 本 文 使 
用 文 [24] 整 理 的 局 部 日 面 图 像 数据 ， 由 空间 环 
境 人 工 智 能 预警 创新 工 坊 提 供 ， 同 时 于 2021 年 


2.1 


于 McIntosh 分 类 的 太阳 黑子 数据 收 旨 
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图 1 McIntosh-Zpe 分 类 规则 上 1 
Fig. 1 Classification code of McIntosh-Zpc 


[21] 


6 A 21 日 公布 作为 阿里 云天 池 大 赛 的 太阳 黑子 群 磁 分 类 竞赛 的 官方 数据 集 。 通 过 对 2010 ~ 2017 年 共 


15 641 个 太阳 黑子 FITS( Flexible Image Transport System ) 文件 解压 与 匹配 对 应 的 McIntosh 标签 


获得 了 可 用 于 麦 金 托 什 分 类 的 原始 太阳 黑子 数据 库 ， 并 将 其 命名 为 Sharp, 

Sharp 数据 库 的 图 像 数据 来 源 是 由 搭载 在 太阳 动力 学 观测 站 上 的 日 震 与 磁场 成 像 仪 提供 的 空间 天 
^t HMI 活动 区 域 数 据 产品 (Spaceweather HMI Active Region Patch, SHARP), ， 旨 在 通过 收集 、 存 储 、 
跟踪 和 分 析 局 部 日 面 活动 区 图 像 以 研究 太阳 活动 的 变化 情况 !-29 (作为 区 分 ，Sharp 代 指 原始 麦 金 托 
什 太阳 黑子 数据 库 ，SHARP/Z720s-SHARP 代 指 空间 天 气 HMI 活动 区 域 数据 产品 ) SHARP 系列 数据 
产品 包括 时 间 间 隔 为 12 min 的 磁 图 和 可 见 光 图 像 ， 提 供 了 活动 区 域 地 图 ， 同 时 包含 整个 生命 周期 的 
自动 跟踪 磁场 强度 ”1 ， 并 存储 为 FITS 格式 文件 ， 可 由 两 个 主键 索引 : 时 间 (T_REC) 和 HMI 活动 区 


编号 (HARPNUM) FITS 格式 是 一 种 定义 和 编码 
数据 的 方法 ，1982 年 由 国际 天 文学 联合 会 
(International Astronomical Union, IAU) 确立 ， 以 
便于 世界 各 天 文 台 之 间 的 天 文 图 像 数据 传输 和 交 
Be! 。 与 太阳 黑子 麦 金 托 什 分 类 相关 的 关键 字 
参数 如 表 1。 

Sharp 数据 库 的 标签 信息 来 自 美 国 国家 海洋 
和 大 气管 理 局 ， 美 国 国家 海洋 和 大 气管 理 局 每 天 
将 太阳 黑子 群 麦 金 托 什 分 类 信息 以 SRS 文件 的 
形式 实时 发 布 在 http://www.solarmonitor.com E, 
并 且 由 于 该 网 站 发 布 信息 的 及 时 性 和 完整 性 ， 得 
到 了 大 部 分 天 文 研究 机 构 的 关注 和 认可 。 美 国 空 
间 天 气 预 报 中 心 (Space Weather Prediction Center, 


我 们 


表 1 FITS 文件 关键 字 参 数 
Table 1 Keywords description of FITS file 


P arameter name 


Description 


SIMPLE 
DATE_OBS 
NASIS1/2 
HARPNUM 
NOAA_AR 
NOAA_ARS 


NOAA_NUM 


Whether file conforms to FITS standard 


Observation date 


Width/ Height of original image 


HMI active region patch number 


Best single matching NOAA AR number 


Comma-separated list of all matching 


NOAA AR numbers 


Number of entries in NOAA, ARS 


st 
dr 

RE 

x 
M 
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SWPC) 汇 编 的 SRS 是 美国 国家 海洋 和 大 气管 理 表 2 SRS 文件 关键 字 参 数 

局 和 美国 空军 ( United States Air Force, USAF) 的 Table 2 Keywords description of SRS file 

联合 产 Hi ; 每 天 0030 UTC 时 发 布 , 提供 前 一 天 Parameter name Description 

在 日 面 上 观测 到 的 活动 区 域 的 详细 说 明 。SRS 由 Nmbr NOAA active region number 

美国 空间 天 气 预 报 中 心 在 分 析 和 整理 美国 空军 太 Location Sunspot group location 

阳光 学 观测 网 ( Solar Optical Observing Network , To Carrington longitude of the group 

SOON ) 的 所 有 单独 报告 后 汇编 。SRS 文件 关键 字 m" Vases oes 

参数 如 表 2. 、 . Z McIntosh classification of the group 
AB SUL RDA AX SIL EONS BRE SR LL Longitudinal extent of the group in 


像 仪 的 FITS 文件 和 美国 国家 海洋 与 大 气管 理 局 
SRS 的 McIntosh 标签 信息 两 者 进行 匹配 ， 具 体操 
作 过 程 为 (1) 从 NOAA 以 FTP 的 方式 获取 2010~ 
2017 年 所 有 SRS 单独 文件 ; (2) 将 获取 的 SRS 
文件 信息 过 滤 提 取 关 键 字 数据 ， 并 按 年 份 进行 汇 
总 ， 最 后 输出 csv 文件 ; (3) 人 遍历 FITS 文件 数据 并 解压 为 JPG 格式 ， 以 日 期 和 NOAA_AR 搜索 对 应 日 
期 SRS 文件 相同 活动 区 编号 的 麦 金 托 什 信息 并 命名 。 最 后 整理 得 到 的 Sharp 数据 库 中 共有 15 641 个 可 
用 样本 ,包括 54 RR SIT APM TA, E2 是 Sharp 数据 库 中 2015 4F 6 H 22 日 0 点 且 HARP 编 
号 为 5692、 活 动 区 为 12371 、 麦 金 托 什 分 类 为 Fke 的 图 像 示例 。 


heliographic degrees 
NN Total number of visible sunspots in the group 


Mag Type Magnetic classification of the group 


图 2 Sharp 数据 库 中 来 自 2015 年 6 月 22 80.4%, HARP 编号 为 5692、 活 动 区 为 12371、 麦 金 托 什 分 类 为 Fke 的 图 像 示例 
Fig.2 Image example from Sharp dataset with date of 2015. 06. 22. 00: 00: 00, HARPNUM of 5692, 
NOAA of 12371 and McIntosh class of Fkc 


然而 ， 上 述 用 于 麦 金 托 什 分 类 的 原始 Sharp 数据 库 依然 存在 一 系列 问题 ， 无 法 满足 太阳 黑子 分 类 
任务 的 要 求 。 首 先 ，Sharp 数据 库 的 数据 时 间 范 围 仅 有 7 年 ， 远 远 小 于 一 个 太阳 黑子 周期 ， 使 得 Sharp 
数据 库 包含 的 黑子 特征 不 够 完整 ， 同 时 数据 量 较 少 ， 可 信和 度 较 低 ; 其 次 ，Sharp 数据 库存 在 麦 金 托 什 
分 类 类 别 数据 不 均衡 的 问题 ， 同 时 存在 一 系列 无 效 数据 需要 过 滤 ; 此 外 ， 通 过 数据 来 源 得 知 ，Sharp 
数据 库 具有 较 大 的 扩充 可 能 性 。 因 此 ， 本 文 在 Sharp 数据 库 基 础 上 进一步 扩充 及 清洗 数据 。 

2.2 太阳 黑子 数据 库 newSharp 
2.2.1 数据 扩充 

与 Sharp 数据 库 类 似 ， 扩 充 数据 同样 使 用 来 自 SDO/HMI 提供 的 720s-SHARP 系列 数据 产品 (hmi. 
sharp_720s-Space Weather HMI Active Region Patch) 7" ， 所 有 数据 文件 从 网 站 http ;//jsoc.stanford. edu/ 
下 载 ， 均 采用 FITS 格式 ， 并 将 扩充 数据 库 命 名 为 newSharp。 数 据 选 择 满 足以 下 标准 : (1) 时 间 范 围 为 
2010 年 5 月 至 2022 年 8 月 ; (2) 图 像 数 据 每 96 min 拍摄 一 次 ; (3) 只 有 当 一 个 SHARP 编号 同时 对 应 
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于 一 个 NOAA AR 时 ， 才 会 选择 SHARP 数据 。 观 察 发 现 ， 原 Sharp 数据 库 的 数据 实际 时 间 范 围 是 
2010 年 5 月 至 2017 年 12 月 ,同时 在 此 时 间 范 围 内 存在 数据 缺失 ， 即 大 量 可 用 数据 被 忽略 ， 故 本 文 
将 数据 扩 增 过 程 分 为 两 大 步 : 2010~2017 年 获取 遗漏 的 数据 ，2018~ 2022 年 获取 每 天 数据 。 两 者 具体 
下 载 流程 如 下 : (1) 从 2010 年 5 月 1 日 开始 下 载 当 天 0 点 的 FITS 数据 ， 并 查看 是 否 包 含 在 原 Sharp 数 
据 库 中 ， 如 有 则 删除 ， 进 行 下 一 项 数据 ， 若 无 则 进一步 获取 FITS 文件 中 “NOAA_NUM” 关 键 字 (代表 
该 图 像 块 中 包含 黑子 所 在 的 活动 区 个 数 ) ， 若 大 于 工 则 删除 ， 进 行 下 一 项 ， 若 等 于 1 则 以 96 min 的 间 
隔 获取 该 活动 区 当天 所 有 FITS 数据 ， 进 行 下 一 项 数据 ; (2) 从 2018 年 1 月 1L 日 开始 ,无 需 判断 是 否 
包含 在 原 Sharp 数据 库 中 ， 直 接 下 载 当 天 0 点 FITS 文件 并 解析 其 “NOAA_NUM” 数 值 大 小 ， 若 大 于 1 
则 删除 ， 进 行 下 一 项 ， 若 等 于 1 则 同样 以 96 min 的 间隔 获取 该 活动 区 当天 所 有 FITS 数据 ， 进 行 下 一 
项 数据 。 

完成 newSharp FITS 数据 和 SRS 数据 扩充 后 , 将 FITS 文件 解压 ， 获 取 其 “NOAA_AR” 和 “HARPNUM” 
参数 ， 并 根据 “NOAA_AR” 和 时 间作 为 连接 与 SRS 文件 信息 对 应 获得 该 活动 区 内 黑子 群 的 MeIntosh 
编号 。 最 终 ， 从 15 641 张 太 阳 黑 子 图 像 的 Sharp. 数据 库 扩 增 到 107 153 张 太阳 黑子 图 像 的 原始 
newSharp 数据 库 。 至 此 ， 一 个 完整 太阳 周期 (2010 年 5 月 1 日 至 2022 年 8 月 8 日 ) 的 太阳 黑子 数据 库 
newSharp 初步 建立 完成 。 然 而 ， 其 中 夹杂 着 大 量 无 法 使 用 的 数据 需要 进一步 处 理 。 
2.2.2 数据 清洗 

通过 观察 ，newSharp 中 混 人 大 量 无 法 使 用 的 图 像 数 据 ， 需 要 进一步 清洗 与 过 滤 。 首 先是 无 效 数 
据 ， 如 图 3(a) ， 由 于 设备 等 因素 影响 形成 黑 图 ， 数 据 库 无 法 直接 使 用 ， 需 要 删除 ; 如 图 3(c) ， 图 像 
中 混和 人 了 其 他 组 的 黑子 (包括 但 不 限于 突然 出 现 、 从 边缘 进入 、 逐 渐 平 移 进 入 等 ) ， 也 需要 人 工 删 除 ; 
此 外 ，newSharp 中 也 存在 大 量 处 于 极端 的 日 面 边缘 上 且 黑 子 不 明显 (甚至 不 存在 黑子 ) 的 图 像 数 据 , 如 图 
3(b) ， 本 文 考虑 到 黑子 群 具有 一 定 长 度 ， 利 用 对 应 的 FITS 文件 获取 “LON_MIN” 和 “LON_MAX” 经 
度 关键 字 信息 来 过 滤 此 类 数据 ， 有 具体 规则 是 筛选 并 删除 newSharp 中 经 度 大 于 80° (黑子 不 明显 ) 或 者 
经 度 大 于 75 日 经 度 范围 小 于 15 (黑子 处 于 边缘 是 畸变 严重 ) 的 太阳 黑子 图 像 数 据 。 


(a) 


图 3 原始 newSharp 中 的 被 清洗 数据 示例 。(a) 黑 图 ; (b) 黑子 不 明显 图 ; (e) 混 入 其 他 黑子 图 ; (d) cle xh HE 
A; (e) 受 光 球 层 噪声 影响 图 
Fig.3 Image examples of cleaned data from original newSharp. (a) Black image; (b) image with inconspicuous sunspots; (c) 


image with other sunspots; (d) image affected by limb darkening; (e) image affected by photosphere noise 


过 滤 无 效 数 据 之 后 ， 我 们 继续 对 污染 严重 的 数据 进行 清洗 ， 例 如 : PA. OR EDU Be uk 
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光 球 层 噪 声 的 影响 突然 达到 不 可 忽略 的 程度 (该 程度 由 主观 决定 ,如 图 3(d)、 图 3(e) ) 等 图 像 数 
据 ， 需 要 人 工 进 行 考量 并 删除 。 总 而 言 之 ，newSharp 集合 了 太阳 黑子 在 球体 表面 位 移 、 旋 转 ， 同 时 
不 断 演化 ， 以 及 一 定 日 面 边缘 位 置 与 噪声 等 一 系列 因素 在 内 ， 反 应 了 真实 的 观测 结果 ， 具 有 普 适 性 和 
合理 性 。 

数据 库 中 的 每 个 数据 由 图 像 和 标签 组 成 ， 标 签 的 准确 性 直接 影响 网 络 的 训练 结果 ， 因 此 ， 我 们 对 
标签 的 有 效 性 进行 复核 。 由 于 获取 的 图 像 是 每 天 间隔 96 min 的 所 有 数据 ， 而 标签 是 与 当天 0030 UTC 
发 布 的 SRS 标签 数据 相 匹 配 ， 故 每 天 仅 有 固定 时 刻 SRS 提供 的 一 个 麦 金 托 什 标 签 ， 因 此 在 将 0030 
UTC 标签 信息 同样 赋予 其 他 时 刻 的 图 像 数 据 时 ， 没 有 考虑 到 此 时 黑子 极 有 可 能 早已 演化 为 另 一 类 型 。 
即 由 于 太阳 黑子 演化 的 连续 性 ， 在 赋予 下 一 个 SRS 标签 之 前 ， 黑 子 已 经 演化 为 另外 的 类 型 而 导致 标 
签 信息 有 误 。 如 图 4， 选 取 3 张 图 像 (20141102_Hrx_4751_12200_093600.jpg, 20141102_Hrx_4751_ 
12200_222400.jpg 和 20141103. Axx, 4751. 12200. 000000.jpg) 作为 示例 ， 可 以 发 现 ， 同 一 天 内 相同 活动 
区 、 不 同时 刻 的 黑子 形态 已 经 不 同 ， 然 而 标签 信息 却 使 用 前 一 个 SRS 提供 且 针 对 0030 UTC 时 刻 的 太 
阳 黑 子 图 像 标签 数据 ， 这 显然 存在 错误 。 


() 


图 4 原始 newSharp 中 的 McIntosh 标签 信息 有 误 数据 示例 。(a)20141102_Hrx_4751_12200_093600.jpg; (b)20141102_Hrx 
_4751_12200_222400.jpg; (c)20141103_Axx_4751_12200_000000.jpg 
Fig.4 Image examples of data with wrong McIntosh label from original newSharp. (a) 20141102_Hrx_4751_12200_093600. 
jpg; (b) 20141102 Hrix 4751 12200 222400.jpg; (c) 20141103 Axx 4751. 12200 000000.jpg 


(a) 


针对 上 述 情况 ， 我 们 经 过 一 系列 观察 发 现 共 同 特点 ， 汇 总 起 来 具体 可 以 分 为 两 种 情况 : (1) 开始 
分 类 正确 ， 由 于 黑子 进化 导致 中 间 过 程 中 黑子 分 类 标签 错误 ， 即 活动 区 相同 而 前 后 分 类 标签 不 同 ; 
(2) 开 始 便 分 类 错误 ， 即 在 一 个 SRS 更 新 周期 内 ， 活 动 区 相同 ， 前 后 分 类 标签 不 同 。 根 据 此 信息 可 以 
编写 程序 将 前 后 两 天 的 标签 数据 进行 比较 ， 若 前 后 两 天 标签 数据 未 改变 则 进行 下 一 项 ; 若 前 后 标签 信 
息 不 同 ， 则 表明 处 于 上 述 两 种 情况 之 一 。 由 于 需要 太阳 物理 专家 的 专业 指导 ， 而 目前 暂 未 有 较为 权威 
的 过 程 中间 太 阳 黑 子 麦 金 托 什 类 别 标签 数据 ， 故 本 文 仅 保留 0 点 数据 而 移 除 中 间 过 程 中 标签 存疑 或 有 
误 的 数据 ， 最 终 以 此 规则 在 newSharp 数据 库 中 进行 迭代 。 

完成 上 述 操作 后 ， 基 本 保证 SRS 标签 信息 匹配 了 对 应 的 太阳 黑子 图 像 数 据 。 至 此 ， 一 个 完整 太 
阳 周 期 的 有 效 太阳 黑子 数据 库 newSharp 建立 完成 。 值 得 强调 的 是 ， 考 虑 到 需要 足够 数据 量 、 面 向 实 
际 任务 情况 等 ，newSharp 中 包含 一 定 程度 的 边缘 黑子 和 受 临 边 昏 暗影 响 的 图 像 。 

综 上 所 述 ， 本 文 从 原始 15 641 张 太阳 黑子 图 像 的 Sharp 数据 库 扩 增 到 共 107 153 张 太阳 黑子 图 像 
的 原始 newSharp 数据 库 ， 但 由 于 发 现 SRS 信息 未 匹配 的 15 847 条 数据 ， 以 及 活动 区 编号 不 匹配 的 54 
条 数据 ， 移 除 后 经 人 工 清洗 和 过 滤 黑 图 及 边缘 黑子 不 明显 图 19 446 张 ， 后 又 发 现 2475 组 (每 组 约 15 
张 图 片 ) 前 后 标签 有 差异 的 图 片 ， 选 择 保留 当天 0 点 数据 ， 其 余数 据 移 除 ， 最 终 建立 共 40 246 张 有 效 
样本 的 太阳 黑子 newSharp 数据 库 。 
2.3 太阳 黑子 数据 预 处 理 

数据 预 处 理 方面 ， 我 们 观察 发 现 newSharp 中 存在 大 量 处 于 日 面 边 缘 但 依然 有 效 的 数据 (如 图 5 
(a)), ， 考 虑 到 这 些 太阳 黑子 图 像 特 点 ， 除 了 和 常规 的 数据 增强 以 外 ， 本 文通 过 选择 O-padding 的 方式 进 
一 步 消除 宇宙 背景 的 影响 ， 如 图 5(b) ， 并 以 训练 好 的 ResNet-18 神经 网 络 模型 为 例 ， 对 较为 靠 后 的 第 
三 模块 输出 特征 图 进行 观察 ， 靠 后 的 模块 提取 的 特征 往往 对 于 最 终 分 类 结果 较为 重要 ， 如 图 $(e) ， 


4 其 周 美 林 等 ; 
ResNet-18 能 较 好 地 提取 包括 相应 太阳 黑子 所 在 


区 域 特征 在 内 的 一 系列 特征 ， 并 以 此 作为 分 类 结 
果 的 重要 依据 。 

此 外 ， 由 于 神经 网 络 模型 的 输入 有 特定 尺寸 
要 求 (例如 ResNet 网 络 的 输入 尺寸 为 224 x 224) , 
直接 将 太阳 黑子 数据 输入 神经 网 络 会 导致 太阳 黑 
子 形态 和 实际 尺寸 发 生 改 变 。 但 实际 上 ,黑子 相 
对 大 小 对 于 麦 金 托 什 分 类 而 言 较为 重要 ， 故 本 文 
进一步 将 太阳 黑子 数据 的 视 场 进行 统一 操作 ， 还 
原 其 真正 的 视 场 大 小 。 首 先 获取 newSharp 数据 
对 应 FITS 文件 中 的 “CDELT172” 分 辩 率 参数 ， 
结果 显示 其 数值 均 为 0. 504， 可 知 newSharp 中 的 
图 像 数 据 处 于 同一 视 场 大 小 ， 不 能 直接 进行 简单 
的 放 缩 操作 。 其 次 分 别 获取 newSharp 中 图 像 数 
据 的 最 大 长 度 和 最 大 宽度 ,将 两 者 进行 对 比 继续 
选择 最 大 的 尺寸 ， 以 此 作为 特定 网 络 模 型 输入 尺 
寸 的 最 大 参考 值 ， 供 其 余 图 像 在 该 尺寸 下 按 原 比 
例 进行 缩放 ， 例 如 拥有 最 大 宽度 的 图 像 数 据 在 
224 x224 中 将 224 作为 宽度 值 ， 高 度 按 原 比 例 缩 
小 ， 同 理 其 余 图 像 首先 将 较 大 的 尺寸 在 224 x 
224 中 按照 与 最 大 宽度 的 比率 缩小 ， 而 后 宽度 按 
照 原 比例 缩小 ， 如 此 可 以 保证 在 224 x 224 BS. 
寸 下 ， 输 入 图 像 中 黑子 形态 与 视 场 大 小 保持 一 
致 。 最 后 在 保证 原 视 场 大 小 的 基础 上 对 图 像 数 据 
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(a) lá 
(b) 


图 5 0-padding 处 理 后 的 太阳 黑子 图 像 数据 以 及 ResNet- 
18 特征 提取 图 例 。(a) 原始 太阳 黑子 图 像 ;， (b) 经 
过 0-padding 后 的 太阳 黑子 图 像 ; (c) ResNet-18 第 

三 模块 特征 图 
Fig.5 Image examples of sunspot data after 0-padding and 
feature extracting result of ResNet-18. (a) Original 
sunspot image; (b) sunspot image after O-padding; 


(c) feature map of ResNet-18's third block 


进行 0-padding 操作 ， 如 图 6， 即 填充 (padding) 后 的 图 像 尺寸 应 为 特定 网 络 模 型 输入 尺寸 。 
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newSharp 中 太阳 黑子 图 像 数 据 视 场 统一 化 示例 


Fig.6 FOV unification example of sunspot image data from newSharp 
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3 实验 与 对 比分 析 


3.1 数据 分 布 对 比 

将 扩 增 并 清洗 后 的 newSharp 与 Sharp 进行 比较 ， 图 7 为 扩 增 前 后 数据 分 布 情况 的 对 比 。 其 中 
Sharp 一 共 54 类 ，newSharp 在 其 基础 上 扩 增 了 3 38, 4:57 类 数据 ， 扩 增 部 分 分 别 是 Cki, Fac 和 Fhi。 
其 次 ， 可 以 看 出 ，newSharp 中 大 多 数 类 别 的 数量 较 Sharp 有 所 增加 ， 例 如 Axx 和 Cso 均 增 加 超过 5 
倍 。 此 外 ，newSharp 增加 了 Sharp 中 少 类 的 数量 ,例如 Fao 类 的 数量 从 1 增加 到 17，Cko 类 的 数量 从 
2 增加 到 122, Eho 类 的 数量 从 1 增加 到 139, Cho 类 的 数量 从 2 增加 到 177， 可 见 扩 增 对 有 效 的 少 类 
样本 数量 增加 有 一 定 成 效 。 然 而 ，newSharp 中 依然 存在 少数 类 别 的 数量 较 低 ， 这 是 由 于 其 本 身 在 现 
实 中 较为 罕见 ， 例 如 Ero 和 Chi, newSharp 中 出 现 部 分 类 别 数量 降低 的 原因 可 能 是 这 部 分 数据 在 原 
Sharp 中 质量 不 高 而 被 清洗 过 滤 ， 例 如 Fho 类 的 数量 从 15 降低 到 3，Fse 类 的 数量 从 11 降 到 1。 可 以 
看 到 ， 即 使 扩 增 后 部 分 类 别 数量 增加 甚至 超过 5 倍 的 newSharp ， 其 数据 依然 呈现 长 尾 分 布 ， 具 有 较为 
严重 的 类 别 不 均衡 ， 故 本 文 与 以 往 工 作 一 样 ， 将 主要 进行 Melntosh-Zpe 分 类 实验 。 
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(b) 
图 7 Sharp 和 newSharp 的 数据 分 布 对 比 。(a)Sharp 数据 分 布 ; (b) newSharp 数据 分 布 


Fig. 7 Data distribution comparison between Sharp and newSharp. (a) Data distribution of Sharp; 
(b) data distribution of newSharp 


另 一 方面 ， 如 图 8， 是 Sharp fll newSharp 的 活动 区 分 布 情况 对 比 ， 我 们 可 以 清晰 观察 到 ，newSharp 
的 活动 区 数量 较 Sharp 增多 ， 填 补 了 Sharp 大 部 分 空缺 ， 分 布 更 加 均匀 ， 说 明 newSharp 是 较为 完整 
ER, 
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(b) 
图 8 Sharp 和 newSharp 的 活动 区 分 布 对 比 。(a)Sharp ARYA; (b) newSharp 活动 区 分 布 
Fig.8 Active region distribution comparison between Sharp and newSharp. (a) Active region distribution of Sharp; 


(b) active region distribution of newSharp 


对 于 MeIntosh-Zpc 数据 分 布 而 言 ， 以 McIntosh-Z 为 例 ， 其 中 Sharp 数据 分 布 如 图 9(a) , % Sharp 
基础 上 进行 扩充 后 的 原始 newSharp 数据 分 布 如 图 9(b) 。 由 图 9 可 以 发 现 ， 原 始 newSharp 中 每 一 个 类 
别 的 数量 较 Sharp 均 有 明显 增加 ， 例 如 少 类 下 类 数量 增加 了 超过 2. 8 倍 ，A 类 数量 甚至 增加 到 原来 的 
V7 fii; 而 经 过 一 系列 数据 清洗 之 后 的 newSharp 分 布 情况 如 图 9(e) ， 每 一 个 类 别 的 数量 较 Sharp 相 比 
也 是 只 多 不 少 ， 例 如 少 类 下 类 数量 增加 超过 1.8 倍 ， 而 A 类 数量 依然 增加 超过 5 倍 。 同 样 newSharp 
THEE Sharp 的 数量 增加 也 体现 在 MeIntosh-p 中 的 少 类 h 类 和 McIntosh-c 中 难 类 i 类 上 ， 如 图 10 和 图 
11， 分 别 增 加 了 4 倍 和 1.6 Ze, 侧面 印 证 了 前 期 数据 扩 增 和 数据 清洗 的 操作 是 有 效 的 ， 具 体 在 数据 
层面 分 类 精度 的 提升 效果 需 通过 实验 验证 。 


Zclass 


(a) 


图 9 Sharp 和 newSharp 的 McIntosh-Z 分 类 数据 分 布 对 比 。(a)Sharp 数据 分 布 ; (b) 原始 newSharp 数据 分 布 ; (ec) 清 洗 
后 newSharp 数据 分 布 
Fig.9 Data distribution comparison of McIntosh-Z classification between Sharp and newSharp. (a) Data distribution of Sharp; 
(b) data distribution of original newSharp; (c) data distribution of cleaned newSharp 


202311.00013v1 


ChinaXiv 


ChinaXiv 合 作 期 刊 


362 RM UP OG 5 RK 20 15 


1779 1845 


2 000 
1 000 
0 
a h k f s x 
pclass pclass 
(a) (b) 


图 10 Sharp 和 newSharp 的 McIntosh-p 分 类 数据 分 布 对 比 。(a)Sharp 数据 分 布 ; (b) 清 洗 后 newSharp 数据 分 布 
Fig. 10 Data distribution comparison of McIntosh-p classification between Sharp and newSharp. (a) Data distribution of Sharp; 
(b) data distribution of cleaned newSharp 
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图 11 Sharp 和 newSharp 的 McIntosh-c 分 类 数据 分 布 对 比 。(a)Sharp 数据 分 布 ; (b) 清 洗 后 newSharp 数据 分 布 
Fig. 11 Data distribution comparison of McIntosh-c classification between Sharp and newSharp. (a) Data distribution of Sharp; 


(b) data distribution of cleaned newSharp 


3.2 基于 Sharp 的 数据 分 配方 式 对 比 与 选择 

以 往 大 多 数 太阳 黑子 的 麦 金 托 什 分 类 工作 中 选择 简单 地 将 数据 随机 划分 为 训练 集 、 验 证 集 、 测 试 
集 进行 实验 。 但 是 由 于 太阳 黑子 演变 的 连续 性 ， 同 时 在 数据 清洗 阶段 发 现 不 少 太 阳 黑 子 在 SRS 信息 
更 新 之 前 已 经 完成 演化 ， 最 终 这 部 分 数据 因为 麦 金 托 什 标 签 信息 的 准确 性 存疑 而 舍 去 。 连 续 演化 的 黑 
子 图 像 之 间 存 在 较 大 相似 性 ， 故 简单 随机 划分 数据 的 方式 有 可 能 造成 数据 集 彼此 交叉 污染 。 经 过 观 
察 ， 按 照 太阳 黑子 所 在 的 活动 区 编号 进行 划分 可 使 得 数据 集 之 间 相 互 独立 。 

本 文 基 于 Sharp 数据 库 并 使 用 4 种 经 典 的 分 类 网 络 模型 (LeNet-5，AlexNet，VGG16 和 ResNet-18 ) 
针对 两 种 数据 分 配方 式 进 行 MclIntosh-Zpe 分 类 对 比 实验 : 随机 划分 数据 集 ( Random) 和 按 活动 区 划分 
数据 集 (AR) ， 分 别 按 两 种 分 配方 式 将 Sharp 数据 库 划分 为 70% 训 练 集 、20% 验证 集 和 10% 测 试 集 。 
两 种 方式 划分 McIntosh-Z 实验 的 具体 数据 分 布 如 表 3 和 表 4， 两 种 方式 划分 McIntosh-p 实验 的 具体 数 
据 分 布 如 表 5 和 表 6， 两 种 方式 划分 MeIntosh-e 实验 的 具体 数据 分 布 如 表 7 和 表 8。 
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表 3 基于 Sharp 和 按 活动 区 分 配 的 McIntosh-Z 数据 分 布 
Table 3 McIntosh-Z data distribution based on Sharp and AR-partition 


A B C D E F H Total 

Train-set 390 982 1665 2 967 1 474 218 3 346 11 042 
Val-set 92 333 489 926 360 63 963 3 226 

Test-set 75 87 149 284 162 17 409 1183 
Total 557 1402 2 303 4177 1 996 298 4718 15 451 


#4 基于 Sharp 和 随机 分 配 的 McIntosh-Z 数据 分 布 
Table 4 McIntosh-Z data distribution based on Sharp and Random-partition 


A B C D E F H Total 

Train-set 407 1015 1 634 3 005 1 423 214 3 344 11 042 
Val-set 102 292 480 852 418 64 1 018 3 226 
Test-set 48 95 189 320 155 20 356 1 183 
Total 557 1 402 2 303 4177 1 996 298 4718 15 451 


#5 基于 Sharp 和 按 活动 区 分 配 的 McIntosh-p 数据 分 布 
Table 5 McIntosh-p data distribution based on Sharp and AR-partition 


a h k r s x Total 

Train-set 3 094 162 1 246 1 328 3 840 1 372 11 042 
Val-set 966 33 286 414 1 102 425 3 226 
Test-set 283 21 159 102 456 162 1183 
Total 4 343 216 1 691 1 844 5 398 1 959 15451 


#6 基于 Sharp 和 随机 分 配 的 McIntosh-p 数据 分 布 
Table6 McIntosh-p data distribution based on Sharp and Random-partition 


a h k r S x Total 

Train-set 3 094 165 1201 1 348 3 839 1 395 11 042 
Val-set 935 37 355 361 1 127 411 3 226 
Test-set 314 14 135 135 432 153 1183 
Total 4 343 216 1 691 1 844 5 398 1 959 15 451 


X7 基于 Sharp 和 按 活动 区 分 配 的 McIntosh-c 数据 分 布 表 8 基于 Sharp 和 随机 分 配 的 McIntosh-c 数据 分 布 


Table 7 MclIntosh-c data distribution based on Table 8 McIntosh-c data distribution based on 
Sharp and AR-partition Sharp and Random-partition 
c i o x Total c i o x Total 
Train-set 1 258 1617 4431 3736 11042 Train-set 1257 1577 4430 3778 11042 
Val-set 310 464 1 397 1 055 3 226 Val-set 351 470 1 303 1 102 3 226 
Test-set 177 125 397 484 1 183 Test-set 137 159 492 395 1 183 


Total 1745 2 206 6 225 5275 15451 Total 1745 2206 6225 5275 15451 


实验 中 各 参数 统一 设置 为 epoech= 50, learning rate = le-4，batchsize= 16， 评 价 指标 选择 weighted-F, 
score。 在 预 训练 模型 的 过 程 中 ， 为 保证 最 终 对 比 的 合理 性 和 有 效 性 ， 本 文 使 用 4 种 模型 分 类 结果 的 平 
均值 作为 两 种 数据 分 配方 式 的 表现 指标 ( 均 作 四 舍 五 人 处 理 ) ， 并 且 不 额外 进行 数据 增强 和 正则 化 操 
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作 ; 同时 为 保证 模型 充分 接触 数据 上 且 避免 最 初 训 练 误差 过 大 ， 设 置 当 epoch = 10 时 ， 开 始 保存 验证 精 
度 最 高 的 模型 (后续 实验 同 此 操作 ) 。 最 终 的 结果 如 图 12(a) ， 对 于 MeIntosh-Zpc 实验 整体 表现 来 看 ， 
Random 分 配方 式 下 的 加 权 ,分数 平 均 可 达 94% ， 而 AR 分 配方 式 下 的 加 权 下 分 数 平均 仅 有 49% ， 两 
者 在 McIntosh-p 中 甚至 相差 52%。 具 体 分 析 ， 如 图 12(b)，(c) 和 (d)， 分 别 是 关于 McIntosh-Z/p/e 分 类 
的 实验 结果 ， 其 中 McIntosh-Z 的 下 类 由 于 数量 少 ， 在 AR 分 配方 式 下 的 加 权 分 数 为 0， 而 在 Random 
分 配方 式 下 的 加 权 EF, 分 数 却 高 出 94% ， 足 以 体现 Random 方式 由 于 太阳 黑子 图 像 的 连续 性 使 得 结果 显著 
虚 高 ; 同样 MeIntosh-p AY h 类 在 AR 分 配方 式 下 的 加 权 Fi 分 数 也 为 0， 在 Random 分 配方 式 下 的 加 权 F, 
分 数 却 高 出 86%; 此 外 ，MclIntosh-c 中 的 i 属于 难 类 ， 在 AR 分 配方 式 下 的 加 权 下 分 数 仅 有 22%， 但 在 
Random 分 配方 式 下 的 加 权 下 分 数 依然 高 于 72%。 由 此 可 见 ， 简 单 地 使 用 Random 的 分 配方 式 来 划分 太 
阳 黑 子 数据 必然 会 掩盖 其 中 关于 少 类 难 类 的 诸多 问题 ， 因 此 本 文采 取 AR 的 分 配方 式 进 行 实验 。 
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图 12 AF Sharp 和 两 种 分 配方 式 的 McIntosh-Zpe 分 类 实验 对 比 。(a)AR 和 Random 的 McIntosh-Zpe 结果 对 比 ; (b) 
AR 和 Random 的 MeIntosh-Z 结果 对 比 ; (c) AR 和 Random 的 MeIntosh-p 结果 对 比 ; (d) AR 和 Random 的 
McIntosh-c 结果 对 比 

Fig. 12 Result comparison of McIntosh-Zpc classification between AR-partition and Random-partition based on Sharp. (a) Result 

comparison of McIntosh-Zpc between AR and Random; (b) result comparison of McIntosh-Z between AR and Random; (c) 
result comparison of McIntosh-p between AR and Random; (d) result comparison of McIntosh-c between AR and Random 


3.3 基于 newSharp 的 McIntosh-Zpc 分 类 实验 对 比 

首先 ， 按 活动 区 分 配方 式 合理 划分 newSharp 数据 集 。 同 3. 2 中 活动 区 划分 Sharp 的 方式 ， 对 于 
newSharp 中 每 一 个 麦 金 托 什 类 别 ， 按 照 活动 区 分 开 ， 即 每 个 类 中 计算 各 活动 区 数量 ， 并 从 高 到 低 进 
行 排序 (活动 区 非 连续 ) ， 其 中 应 舍弃 活动 区 数量 少 于 3 的 类 别 ， 最 后 统计 有 7 个 ， 分 别 是 Ero, Fho, 
Chi, Fhi, Fac, Fsc 和 Fhc。 其 次 ， 由 于 扩 增 了 一 定 幅 度 的 图 像 数据 ， 且 为 了 网 络 模型 学 习 到 更 多 样本 
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特征 ， 以 7:2:1 的 方式 划分 数据 集 ， 将 各 个 类 别 按 活动 区 数量 从 高 到 低 、 由 前 往 后 依次 选取 70% 训 
练 数据 、20% 验 证 数据 、10% 测 试 数据 ， 即 满足 训练 集 数据 量 后 再 划分 验证 集 ， 满 足 验 证 集 数 据 量 后 
将 剩余 数据 划分 为 测试 集 。 由 此 ， 经 过 基于 活动 区 划分 数据 集 后 ， 得 到 有 40 207 张 太阳 黑子 图 像 数 据 
的 newSharp 数据 库 ， 具 体 McIntosh-Z/p/c 分 类 实验 数据 分 布 情况 如 表 9、 表 10 和 表 11, 


表 9 基于 newSharp 和 按 活动 区 分 配 的 McIntosh-Z 数据 分 布 
Table 9 McIntosh-Z data distribution based on newSharp and AR-partition 


A B C D E F H Total 

Train-set 2 283 3 407 5 818 5 502 2 554 678 8 299 28 541 
Val-set 600 1 068 1901 1785 714 142 2 634 8 844 

Test-set 365 386 493 474 267 50 787 2 822 
Total 3 248 4 861 8 212 7761 3 535 870 11 720 40 207 


3210 基于 newSharp 和 按 活动 区 分 配 的 McImntosh-p 数据 分 布 
Table 10 McIntosh-p data distribution based on newSharp and AR-partition 


a h k r S x Total 
Train-set 6 687 742 2578 3 007 9 837 5 690 28 541 
Val-set 2232 208 667 949 3 120 1 668 8 844 
Test-set 511 46 273 286 955 751 2 822 
Total 9 430 996 3518 4242 13 912 8 109 40 207 
与 3. 2 中 实验 操作 相同 ， 使 用 LeNet-5, Alex #11 ECT newSharp 和 按 活动 区 分 配 的 
Net, VGG16 和 ResNet-18 四 种 经 典 的 分 类 网 络 模 MeIntosh-c 数据 分 布 
型 对 newSharp 进行 M cIntosh-Zpe 分 类 实验 ,将 Table 11 McIntosh-c data distribution based on 
分 类 结果 取 平 均值 作为 newSharp 的 表现 指标 ( 均 Ze de 
TE VU d Tr AREE) ; 并 和 按 活动 区 分 配 的 Sharp © i p 2 Total 


结果 进行 对 比 来 验证 太 阳 黑 子 数据 扩充 和 清洗 等 Train-set 2 223 2 820 12916 10582 28541 
操作 的 有 效 性 。 为 保证 对 比 的 合理 性 ， 本 实验 不 Val-set 603 814 4193 3234 8844 


进行 额外 的 数据 增强 和 模型 正则 化 ， 同 时 各 项 参 Test-set 270 232 1168 1152 2822 
数 设 置 一 致 : epoch = 50, learning rate = le-4, Total 3096 3866 18277 14968 40207 


batchsize=16， 评 价 指标 选择 weighted-F, score, Hx 
终 将 newSharp 分 类 结果 与 Sharp 进行 比较 ， 如 图 13。 

整体 分 析 而 言 ， 如 图 13(a) newSharp 在 McIntosh-Z/c 中 表现 和 Sharp 相差 不 大 ， 而 在 以 往 工作 
和 Sharp 中 表现 欠 佳 的 MeIntosh-p 分 类 却 表现 较 好 ， 其 加 权 F, 分 数 提 高 了 13%。 上 具体 分 析 ， 如 图 13 
(b), ， 尽 管 newSharp 在 MeIntosh-Z PX F DLA Z 28 H 类 由 于 扩 增 数据 引入 更 多 复杂 的 黑子 特征 而 
导致 表现 与 Sharp 相 比 有 所 下 降 ， 但 对 于 A 类、B 类 、C 类 、D 类 的 加 权 F 分 数 分 别提 高 了 12%, 
5% ，10% 和 11% ， 甚 至 现实 中 较为 罕见 的 少 类 了 类 的 加 权 P, 分 数 从 0% 提 高 到 5% ， 侧 面体 现 出 数据 
扩充 后 增加 有 用 样本 的 一 定 成 效 ; 同样 如 图 13(d) ， 尽 管 newSharp 在 MeIntosh-e 的 多 类 x 类 中 由 于 数 
据 扩 充 引 入 更 多 复杂 特征 使 得 表现 较 Sharp 有 所 下 降 ， 但 在 其 他 类 中 均 有 提高 ， 其 中 难 类 i 类 的 加 权 
F, 分 数 提高 了 4% ，e 类 的 加 权 分数 提高 了 14% ， 侧 面体 现 出 扩 增 了 这 些 类 别 中 包含 更 多 有 用 特 
征 的 数据 样本 ; 而 在 以 往 工作 中 表现 较 差 的 MeIntosh-p 分 类 中 newSharp 的 表现 相对 较为 理想 ， 如 图 
13(c), ， 多 类 a 类 和 s 类 的 加 权 F, 分 数 分 别 比 Sharp 提高 了 7% 和 5%， 对 于 r+ 类 、x 类 、k 类 的 加 权 
F, 分 数 分 别提 高 6%，21% 和 22%， 其 至 少 类 h 类 的 加 权 下 分数 从 0% 突破 到 了 17% ， 极 大 体现 出 本 
次 对 于 太阳 黑子 数据 进行 扩充 和 清洗 等 一 系列 操作 的 有 效 性 与 必要 性 。 
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McIntosh class McIntosh class 
(c) (d) 
图 13 ÆT Sharp 和 newSharp 的 McIntosh-Zpe 分 类 实验 对 比 。(a) Sharp 和 newSharp 的 McIntosh-Zpe 结果 对 比 ; (b) 
Sharp 和 newSharp 的 MeIntosh-Z 结果 对 比 ; (c)Sharp 和 newSharp 的 MeIntosh-p 结果 对 比 ; ( d) Sharp 和 newSharp 
的 McIntosh-c 结果 对 比 
Fig. 13 Result comparison of McIntosh-Zpc classification between Sharp and newSharp. (a) Result comparison of McIntosh-Zpc 
between Sharp and newSharp; (b) result comparison of McIntosh-Z between Sharp and newSharp; (c) result comparison of 
McIntosh-p between Sharp and newSharp; (d) result comparison of McIntosh-c between Sharp and newSharp 


本 文 根 据 以 往 采 用 深度 学 习 方 法 进行 太阳 黑子 麦 金 托 什 分 类 时 出 现 的 问题 与 挑战 ， 主 要 从 数据 和 
方法 方面 ， 建 立 一 个 完整 太阳 周期 ， 且 经 过 数据 清洗 ， 同 时 保留 一 定 现 实数 据 特征 的 太阳 黑子 数据 
库 ， 以 及 使 用 一 系列 针对 太阳 黑子 图 像 科学 合理 的 实验 预 处 理 操作 。 最 后 通过 在 经 典 分 类 网 络 模型 上 
进行 测试 实验 ， 验 证 了 数据 库 和 实验 方法 的 有 效 性 ， 为 后 续 使 用 深度 学 习 实 现 基于 复杂 数据 集 且 端 到 
端的 自动 化 太阳 黑子 麦 金 托 什 分 类 任务 奠定 坚实 基础 。 

致谢 : 感谢 太阳 动力 学 天 文 台 提 供 观 测 数据 。 
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Abstract: As an important basis for predicting solar activity, the McIntosh classification of sunspots is 
used by more and more international institutions and astronomical institutes because some categories are closely 
related to flare eruption. With the rapid increase in the amount of data, automatic McIntosh classification of 
sunspots has become an urgent need. Using the 720s-SHARP series data products provided by SDO/HMI and 
SRS files from NOAA as images and labels for McIntosh classification, this paper first augmented valid samples 
of a complete solar cycle ( time span of 12 years) and cleaned data to establish the sunspot database newSharp 
on the basis of the Sharp database with only 7-year data. Secondly, in view of the characteristics of sunspot 
images, a series of preprocessing operations such as data allocation by active region number were taken, and 
proved its rationality and necessity. Finally, four classical classification neural network models in CNN were 
used to compare Sharp and newSharp for McIntosh classification experiments. The results show that compared 
with Sharp, newSharp not only has a significant increase in the amount of data, but also has better weighted F’, 
score of most categories by augmenting valid samples and cleaning invalid samples. Besides, the weighted F, 
score of categories with a small number from newSharp even has achieved a breakthrough of 0. Over all, the 
weighted F, score of McIntosh-p improved the most, which greatly verifies the effectiveness of establishing a 
complete and reliable database and proves the rationality of using scientific and reasonable experimental 
methods. Thus it is able to better automatedly realize the end-to-end McIntosh classification tasks of sunspot 
images that are actually observed. 


Key words: sunspot; McIntosh classification; Convolutional Neural Network; Sharp dataset 


